Reemplazo de Acción Proximal para Actor-Crítico de Clonación de Comportamiento en Aprendizaje por Refuerzo Fuera de Línea
Reemplazo proximal en actor-crítico con clonación para RL fuera de línea. Método eficiente que estabiliza el aprendizaje off-policy combinando actualización proximal y clonación de comportamiento.